EVENTO
Análise da Classificação Metagenômica Baseada em Composição
Tipo de evento: Defesa de Dissertação de Mestrado
A metagenômica é o estudo do material genético extraído diretamente de comunidades microbianas. Ao invés de estudar as espécies microbianas isoladamente, como ocorre nos estudos genômicos convencionais, a metagenômica considera as interações entre os mircroorganismos dedeterminado habitat e a influência de tais interações sobre a comunidade microbiana. Um dos passos fundamentais de um estudo metagenômico é a chamada classificação taxonômica, isto é, aidentificação das espécies das quais o material genético foi obtido.O processo de classificação taxonômica envolve uma série de decisões de projeto. Atualmente, no contexto da metagenômica tais decisões são tomadas de maneira quase intuitiva, sem nenhum embasamento teórico ou empírico. A proposta deste trabalho é preencher essa lacuna. Em particular, procura-se analisar o impacto dos seguintes parâmetros sobre a precisão de uma classificação taxonômica: (i) o comprimento das subsequências usadas na codificação dos metagenomas; (ii) a métrica de distância utilizada para medir a similaridade das sequências; e (iii) a estratégia de classificação, que pode ser a convencional, em que as sequências são classificadas isoladamente, ou a hierárquica, em que o processo de classificação leva em consideraçãoo contexto taxonômico de cada fragmento.Para realizar tal estudo, foi adotado um classificador simples que realiza a categorização baseando-se no grau de semelhança entre a sequência em questão e o seu vizinho mais próximo - ou seja, o popular k-NN com k=1. A escolha pelo 1-NN justifica-se pelo fato de esse classificador incorpora um nível mínimo de viés ao processo de classificação. Em outras palavras, esse classificador não faz qualquer suposição a respeito da distribuição dos dados.Foi realizado um experimento computacional de larga escala em que todos os genomas microbianos sequenciados até Janeiro de 2010 foram utilizados como dados. A partir de uma análise extensiva dos resultados, chegou-se às seguintes conclusões. Subsequências depequeno comprimento geram altos erros de classificação pois codificam de forma semelhante fragmentos metagenômicos distintos. Por outro lado, subsequências muito longas representam de forma diferente metagenomas semelhantes, e isso também resulta em erros de classificação altos. Em relação à noção de distância adotada, ao contrário do esperado, a variação das métricas não alterou de forma significativa a precisão do classificador. Finalmente, a estratégiahierárquica de classificação mostrou-se mais eficaz do que a convencional, o que está de acordo com as expectativas iniciais.
Data Início: 15/03/2011 Hora: 11:00 Data Fim: 15/03/2011 Hora: 13:30
Local: LNCC - Laboratório Nacional de Computação Ciêntifica - Auditorio A
Aluno: Susan Higashi - Laboratório Nacional de Computação Científica - LNCC
Orientador: Ana Tereza Ribeiro de Vasconcelos - Laboratório Nacional de Computação Científica - LNCC André da Motta Salles Barreto - GOOGLE -
Participante Banca Examinadora: Ana Tereza Ribeiro de Vasconcelos - Laboratório Nacional de Computação Científica - LNCC Fabiano Thompson - Universidade Federal do Rio de Janeiro - UFRJ Helio José Corrêa Barbosa - Laboratório Nacional de Computação Científica - LNCC/MCTI
Suplente Banca Examinadora: Marisa Fabiana Nicolas - Laboratório Nacional de Computação Científica - LNCC Saul de Castro Leite - Universidade Federal do ABC - UFABC